OpenClaw:当AI Agent拿到了你的浏览器和Shell权限
初见openclaw:一个套壳API的Agent。
它到底是个什么东西?
OpenClaw(前身叫Clawdbot/Moltbot)本质上是一个运行在本地的Node.js守护进程,它能:
-🖥️ 接管你本地已登录的真实Chrome浏览器(通过CDP协议)
- 💻 拥有你电脑的Shell权限和文件系统读写权限
- 🤖 利用大模型API(Claude/GPT/DeepSeek等)理解自然语言指令并自主执行
简单来说,它不是一个"聊天机器人",而是一个能理解人话的Shell脚本 + 能绕过反爬虫的分身。
不过我认为他最精华是他处理图像的方法,也就是让ai更能看得懂图了——懂了这个我觉得就可以自己参照他处理图像的方法,自己改造更合适自己的“openclaw”了
技术架构:简单粗暴的靠上下文
上下文管理:没有复杂的向量召回
它不用Vector DB、Rerank召回模型,不用"主AI+总结AI+上下文AI"的多智能体协作。实际上他用的:
┌─────────────────────────────────────┐
│ 本地Markdown文件存储所有历史记录
│ ↓
│ 直接塞给大模型的超长上下文窗口
└─────────────────────────────────────┘
问题:烧钱...
浏览器接管:真实Session
普通的网页AI(GPT插件、爬虫)是发HTTP请求抓HTML,极易被Cloudflare拦截。OpenClaw则完全模拟人类:
| 传统爬虫 | OpenClaw |
|---|---|
| 模拟请求,容易被识别 | 接管真实浏览器Tab |
| 无法处理登录态 | 使用你的真实Cookie和Session |
| 被反爬虫秒杀 | 在系统眼里就是"真人在操作" |
⚠️ 安全隐患:这意味着你把已通过2FA的免密会话交给了AI。如果Prompt受到注入攻击,这是极其危险的攻击面。
它和现有工具的定位差异
vs. Cursor / Claude Code
Cursor是你在键盘前用的工具,OpenClaw是你离开键盘后、在复杂环境下的监控。
可以理解为一个懂点东西但不多的大学生24h坐在电脑前当助理
# Cursor的场景:你在写代码
"帮我补全这个函数"
# OpenClaw的场景:你去喝咖啡了
"监测GitHub PR,自动拉取diff并跑测试,
失败了就抓取CI日志分析,然后发消息到我微信"
它不是用来替代你写业务逻辑的,而是用来替代那些繁琐的CLI命令、看日志、回消息的机械化流程。
vs. 网页端大模型(GPT/千问/豆包)
| 网页端大模型 | OpenClaw |
|---|---|
| 被困在浏览器沙盒里 | 拥有本地Shell权限 |
| 只能处理你上传的数据 | 可以主动去系统里捞数据 |
| Reactive(被动响应) | Proactive(主动执行) |
举例:
- 网页端:"帮我总结这份上传的CSV"
- OpenClaw:"每天早上9点给我一份昨晚Nginx日志的异常IP总结"(它会自己去
/var/log/nginx/捞数据)——但是这个脚本也可以做到,如果你在一个新的、或者一堆冗余程序的环境下,可以用openclaw
实际应用场景
1. 运维:故障排查的"前置上下文收集"
传统脚本只能发送冰冷的指标:"订单服务CPU100%"。
OpenClaw会自动:
- SSH进入主机,抓取占用最高的线程堆栈
- 提取报错日志关键信息
- 去GitLab查过去24小时的Commit记录
- 发送消息:
"订单服务CPU 100%。我抓取了dump,发现卡在
RegexValidator.java的正则回溯上。两小时前同事A提交了新的手机号正则校验逻辑,可能引发ReDoS。相关代码片段如下:[代码]。是否需要我执行git revert?"
价值:决策权在你手里,省去了大概20分钟的找线索时间。
不过这些用claude code似乎可以更安全且便宜的完成...
2. 网安:非结构化威胁情报处理(这个似乎有用)
脚本无法阅读和理解自然语言的安全报告。OpenClaw可以:
- 每天自动阅读Hacker News、安全博客、Twitter上的网安动态
- 发现"Nginx最新越权漏洞"文章时:
- 理解漏洞原理和受影响版本
- 扫描你管理的服务器清单,比对版本号
- 根据PoC在本地沙箱验证WAF规则是否能拦截
- 生成针对你公司架构的风险评估报告
3. 突破"无API孤岛"的自动化(没接触过,我反正用不到)
很多传统银行、公积金网站、老旧供应商后台没有API,且有强风控。
OpenClaw利用你已登录的真实浏览器:
- 定时抓取多个银行的账单流水
- 剔除内部转账,按类别汇总消费
- 写入本地SQLite或同步到Notion
优势:纯本地运行,隐私安全;风控系统看到的是"真实用户"在查账。
4. 一次性的"脏活累活"
写脚本的前提是任务有规律且会重复执行。但现实中有大量"只干一次,但手动极其折磨"的工作。
场景:把50个混乱的legacy Apache配置文件迁移成Nginx格式,适配CI/CD规范。
- 写完美的转换脚本:2天(边缘case太多)
- 手动改:1.5天
- 用OpenClaw:10分钟完成95%,剩下5%自己review
这个claude code一样可以干......
关于"抢购"场景
速度对比
真人反应:150ms - 250ms
传统脚本: 10ms - 50ms
OpenClaw API: 1000ms - 3000ms ❌
结论:如果纯拼"最后一秒的点击速度",OpenClaw慢得令人发指。
那为什么还被用于抢购?
因为2026年的高阶对抗中,痛点不是"点击速度",而是"环境存活"和"对抗前端动态混淆"。
用法1:破解动态DOM混淆
顶级票务网站每隔几分钟随机重写前端代码。传统脚本认死理(<button class="buy-btn-xyz">),一旦class变成随机的x3f-99a就瘫痪。
OpenClaw通过语义理解,在页面上寻找"视觉上看起来像购买的按钮",然后把坐标喂给本地极速点击脚本。
它扮演的是"雷达",而不是"子弹"。
实际抢购界面真的是这样变吗?——我没观察过、也没接触过
用法2:长链路复杂逻辑绕过
很多抢购需要经历:
- 3D验证码
- 防黄牛冷门问题
- 动态排队页面(要求保持活跃、随机滑动鼠标)
在这些环节中,速度不重要,行为像"人"才重要。OpenClaw用上下文理解回答问题,用视觉处理验证码,用拟真鼠标轨迹维持Session。
这个还是真人来吧...api光是延迟就很难干这个了,速度很重要
用法3:混合驱动模式(最前沿)
真正懂技术的黄牛不会让大模型API参与最后一秒抢单。
他们会让OpenClaw:
- 分析被Cloudflare保护的倒计时页面
- 用JavaScript写一个
MutationObserver脚本 - 通过CDP把脚本注入到当前页面
结果:倒计时结束的瞬间,是本地的JS脚本(0延迟)完成抢购,而不是大模型。
听起来好像可以,不过我没接触过抢购界面的实操。能像普通人一样去手动点点点。OpenClaw相当于给程序员提供了一个接口,让你可以用写代码/下指令的方式,去操控那些原本绝对不让你用代码操控的系统。
核心原理(我觉得):AI是如何"看懂"并"点击"网页的?
Claude的Vision API只能接收静态图片(Base64编码),返回文本描述。那它怎么知道"登录"按钮的精确坐标(X, Y)?怎么保证点击时不会偏离几个像素?
OpenClaw并不是简单地把截屏扔给大模型。为了让"看图"变成"精准的物理操作",它在中间做了一层视觉与DOM坐标的映射。
核心机制1:DOM注入与"视觉打标"(Set-of-Mark)
这是OpenClaw结合CDP最聪明的做法——它不让Claude去"猜"坐标,而是在截图前对网页进行物理标记。
// 简化的技术流程
1. 通过CDP向页面注入JS→ 遍历所有可交互元素(<a>, <button>, <input>等)
2. 在每个元素旁边画一个带数字ID的标签
→ [12] [45] [88] ...
3. 截图这个"打满标签"的网页
→发送给Claude Vision API
4. Prompt:"要完成'加入购物车',点击哪个ID?"
→ Claude回复:"45"
5. 本地查找元素45的精确DOM坐标
→ 通过CDP发送鼠标点击指令
为什么这么做? 大模型对"空间绝对坐标"的感知有误差,但对"识别图像中的数字和文字对应关系"的准确率接近100%。这种做法彻底消灭了"点击偏移"的幻觉。
源于微软研究院在 2023 年 4 月发表的《Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V》,其实现在还挺常见的
核心机制2:Claude的原生Computer Use能力
从2024年底的Claude 3.5 Sonnet开始,Anthropic在模型底层原生训练了computer_use工具。
- Anthropic用数千万张带鼠标轨迹和屏幕分辨率的截图训练模型
- 当面对无法获取DOM的场景(Canvas/Flash/远程桌面)时,Claude可以直接输出:
{
"action": "click",
"coordinate": [845, 320]
}
虽然准确率比不上DOM打标,但在大多数非密集型UI上已经足够可用。
哎又是claude
核心机制3:多模态融合(A11y Tree + 图像)
单靠视觉还有问题:有些按钮隐藏在Hover菜单里,或者图片加载不出来。
OpenClaw会通过CDP抓取无障碍树(Accessibility Tree)——浏览器为盲人阅读器生成的"极简版DOM",只保留纯粹的语义结构:
Button: Login
Textbox: Username
Link: Forgot Password
将A11y Tree转化为Markdown文本,和截图一起发给Claude:
| 右眼(视觉) | 左眼(文本) |
|---|---|
| 全局排版、颜色、视觉焦点 | 精准的元素名称和层级结构 |
这两者结合,让AI对网页的理解甚至超过了普通人类。
让ai理解最好的方式把一条信息用各种方式丢给他——这个其实也可以触类旁通的用到其他使用ai的方式里——当然,不考虑上下文token的话...
技术溯源:这些是原创吗?
不是。 OpenClaw的核心价值不在于技术发明,而在于工程整合和开源社区运营。
| 技术 | 原始来源 | 时间 |
|---|---|---|
| Set-of-Mark(视觉打标) | 微软研究院论文 | 2023年4月 |
| Computer Use API | Anthropic官方发布 | 2024年10月 |
| CDP浏览器接管 | Google Chrome DevTools Protocol | 2017年 |
| A11y Tree用于Agent | Mind2Web(俄亥俄州立)、WebVoyager(浙大) | 2023年 |
OpenClaw的创始人Lars Doucet并没有发明任何新算法或新模型。他的贡献在于:
-✅ 极低的使用门槛:npm install就能跑,10分钟上手
- ✅ 本地优先的架构:数据不出本地,Markdown存储,可完全离线
- ✅ 社区与生态:通过Discord/GitHub/Twitter疯狂运营,数万开发者贡献插件
- ✅ 时机把握:赶上Claude 3.5 Sonnet成熟 + 全球开发者对"AI Agent落地"极度饥渴的窗口期
类比:OpenClaw就像是AI Agent领域的Docker——Docker不是第一个做容器的(LXC更早),但它让容器技术从"只有Google内部能玩"变成了"全世界开发者都在用"。
网安视角的对抗意义:OpenClaw给AI戴上了一副"AR眼镜"。它不是单纯的"图像识别",而是"DOM语义 + 动态视觉注入 + 大模型推理"的结合体。这也解释了为什么传统的反爬虫手段(class name混淆、绝对定位、SVG替代Button)对它完全无效——只要按钮在视觉上长得像个按钮,能被人类肉眼看到,OpenClaw注入的JS就能给它打上标签,Claude就能认出它,CDP就能点到它。
反观豆包
总结
OpenClaw的核心价值不在于"替代确定性脚本执行",而在于填补了三个关键空白:
1. 非结构化数据处理的最后一公里
- 传统脚本只能处理结构化API和CLI
- OpenClaw能理解自然语言报告、复杂界面、跨系统情境
2. 突破"无API孤岛"的技术壁垒
- 利用CDP接管真实浏览器Session
- 绕过所有针对脚本的反爬虫和风控机制
- 在系统眼里就是"真人在操作"
代码
3. 工程整合的典范
- 不是技术发明者,而是技术整合者
- 把Set-of-Mark、Computer Use、CDP、A11y Tree等分散技术打包成开箱即用的工具
- 踩对了2026年AI Agent落地的时间窗口
OpenClaw终结了"图形用户界面(GUI)只适合人类使用"的历史。它给程序员提供了一个接口,让你可以用写代码/下指令的方式,去操控那些原本绝对不让你用代码操控的GUI系统。
从网安视角来看,这种基于CDP接管真实浏览器、且具备人类语义理解能力的Agent,是目前最难防御的新型攻击面。研究它的Prompt Injection导致本地提权、CDP劫持机制、以及如何在TEE(可信执行环境)中安全运行这类Agent,是2026年安全圈非常前沿的课题。
想想就头大,只能用ai对抗ai,用魔法打败魔法了
长远些说,训练一个非开源的防御性ai? 或者用openclaw来防守openclaw...
最后一句话总结:OpenClaw不是一个"聊天机器人"或"写代码工具",而是一个能理解自然语言的、长驻本地后台的、拥有你所有系统权限和浏览器登录态的超级Shell脚本 + 能绕过反爬虫的数字分身。
总之就是不知道什么时候突然来个啥事就突然可能会有用到它的场景了。
还没有评论,来留下第一条吧 ✨